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摘 要 : [目的 /意义 ] 论 文摘 要 是 信息 组 织 的 重要 标 引 对 象 , 将 论文 摘要 按 一 定 结构 进行 标 引 有 利于 科学 传播 知识 发 现 
和 情报 分 析 。 如 何 对 现 有 非 结构 式 摘 要 进行 精准 快速 的 自动 标 引 是 吾 待 解决 的 现实 问题 。[ 方法 过程] 假定 不 
同类 别 的 摘要 具有 内 在 一 致 性 , 即 对 结构 式 摘要 的 研究 可 为 非 结构 式 摘 要 自动 标 引 提 供 方 法 和 技术 参考 。 据 此 ， 
基于 美国 国家 医学 图 书馆 结构 要 素 标 签 术 语 集 和 标签 分 类 映射 关系 ,提出 结构 要 素 BOMRC 体系 和 结构 式 摘要 的 
识别 与 规范 化 标 引 方法 。 其 次 选取 研究 样本 并 采用 文本 挖掘 方法 对 样本 语 料 中 的 单词 、 动词、 三 词 词 块 . 四 词 词 
块 等 词汇 进行 词 频 、TFIDF 值 等 多 个 指标 的 定量 统计 分 析 , 构建 能 够 进行 结构 要 素 识别 的 语义 特征 词典 。 最 后 利 
用 非 结构 式 摘要 测试 集 进行 语义 特征 词典 有 效 性 检验 。[ 结果 /结论 ] 结果 显示 ,利用 语义 特征 词典 方法 能 够 有 效 
识别 非 结构 式 摘要 的 各 类 要 素 ,并 可 用 于 优化 以 机 器 学 习 方法 为 核心 的 自动 识别 模型 。 
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论文 摘要 结构 要 素 


语义 特征 ”特征 词典 


世纪 以 来 ,研究 论文 快速 增长 ,信息 过 载 成 为 
国 搞 学 术 界 的 现实 问题 。 如 何 让 用 户 快速 准确 发 现 所 
需 收 文 ,成 为 出 版 界 和 图 书 情报 界 等 众多 信息 服务 机 
梅 鲍 研究 方向 。 科 技 论文 摘要 具有 较 强 的 目的 性 和 结 
构 项 能 ,是 论文 内 容 的 高 度 概括 ,也 是 读者 检索 和 筛选 
论文 的 重要 依据 。 同 时 ,论文 摘要 还 是 信息 组 织 的 重 


结构 式 摘要 。 但 是 采用 结构 式 摘要 的 科技 期 刊 仍然 是 
少数 ,对 非 结构 式 摘要 中 出 现 的 研究 目的 、 解 决 问题 的 
主要 方法 以 及 研究 获得 的 重要 结果 和 结论 进行 分 类 标 
引 , 深 入 挖 据 摘 要 关键 内 容 仍 是 信息 组 织 与 服务 者 面 
临 的 重要 课题 。 

本 研究 认为 ,不 同类 别 的 摘要 具有 内 在 一 致 性 , 即 
结构 式 摘要 与 非 结构 式 摘 要 在 书写 体例 惯 习 用 语 、 写 
作 目 标 等 多 方面 都 有 高 度 一 致 性 。 因 此 ,对 结构 式 摘 


要 杨 引 对 象 , 倍 受 索引 数据 库 重 视 , 对 其 文本 内 容 的 深 
度 挖掘 和 自动 标 引 也 受到 图 书 情报 研究 和 计算 机 技术 
应 用 研究 的 关注 。 

目前 科技 期 刊 论文 摘要 存在 结构 式 摘要 与 非 结 构 
式 摘要 两 大 类 型 。 相 比 非 结构 式 摘要 存在 的 格式 不 
固定 .层次 不 够 分 明 、 内 容 不 完整 .不 利于 文本 挖 气 等 


要 的 研究 可 以 为 非 结 构 式 摘要 自动 标 引 提供 方法 和 技 
术 参 考 。 为 此 ,本 研究 从 现 有 已 采用 结构 式 摘 要 的 期 
刊 论 文人 手 ,在 总 结 了 157 种 结构 式 摘要 要 素 标签 和 
299 种 标签 组 配 模式 的 基础 上 ,提出 可 映射 的 Back- 


ground-Objective-Method-Result-Conclusion ( 背景 - 目的 


局 限 性 ,结构 式 摘要 在 对 研究 内 容 表 达 的 完整 性 清晰 
EE .信息 量 .易于 移动 环境 的 浅 阅读 等 方面 优势 凸显 ， 
被 越 来 越 多 的 期 刊 采 用 。 据 本 课题 组 2018 年 对 ESI 
学 科 类 目下 覆盖 的 1900 种 医学 领域 期 刊 , 按 影响 因子 
排序 后 采用 系统 抽样 法 抽取 20% 、 即 380 种 期 刊 进行 
调查 发 现 , 有 188 种 期 刊 、 占 比 49. 4796 的 期 刊 采 用 了 


方法 -结果 -讨论 ) ,简称 BOMRC" 要 素 体 系 ;进而 
对 当前 结构 式 摘要 的 词汇 属性 特征 进行 研究 ,利用 文 
本 挖 据 和 定量 分 析 构 建 摘要 语义 特征 词典 ;最 终 开 发 
出 基于 特征 词典 的 摘要 标 引 模型 ,并 在 人 工 标 注 的 非 
结构 式 摘要 测试 语 料 中 进行 测试 。 本 研究 的 价值 在 
于 ,为 结构 式 摘要 的 规范 化 标 引 和 非 结 构 式 摘要 的 结 
构 要 素 快 速 识别 与 标 引 提供 特征 词典 这 一 信息 组 织 工 
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具 基 础 ,并 可 用 于 优化 现 有 自动 标 引 模型 和 解释 自动 
标 引 结果 ,使 非 结构 式 摘 要 自动 标 引 的 准确 度 和 可 解 
释 性 大 大 上 升 ,为 实现 千 万 级 别 的 科技 论文 摘要 标 引 
提供 解决 方案 。 


2 相关 研究 


本 研究 通过 对 摘要 内 容 及 语义 相关 研究 论文 的 遍 
历 以 及 文 后 参考 文献 和 引文 的 追踪 , 共 收 集 到 相关 英 


人 研究 提出 了 “Background-Purpose-Methodology-Result- 
Comments on results( 背景 -目的 -方法 -结果 -结果 
解释 ) ”五 要 素 模式 。 此 外 ,医学 领域 论文 早 在 1987 年 
R. B. Haynes 就 提出 了 “Objective-Design-Setting-Pa- 


tients or participants -Interventions-Measures and Results- 
Conclusion( 目的 -设计 -地 点 -患者 或 参与 者 - 干预 
-测量 和 结果 - 结论 ) "的 七 要 素 模 式 , 目 前 许多 医学 
期 刊 根据 文章 类 型 给 出 了 多 种 类 型 的 结构 式 摘要 撰写 


文 论 文 1 526 篇 ,中 文 论文 613 篇 。 研 究 论文 主要 发 表 
在 计算 机 、 期 刊 编辑 以 及 应 用 语言 学 等 领域 的 学 术 期 
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2.1 摘要 要 素 的 相关 研究 

通过 对 重点 论文 研读 并 结合 关键 词 共 现 网 络 进 行 
以 发 现 近 年 来 关于 科技 论文 摘要 要 素 的 研究 
P 在 以 下 两 个 方面 : 
要 素 的 语言 特征 研究 
正大 致 包 括 时 态 ES .语序 .字数 以 及 词 
泄 等 ,其 中 时 态 和 语 态 问题 研究 侧重 于 分 析 摘 要 写作 
的 新 动态 ,而 语序 ` 字 数 和 词汇 主要 是 通过 分 析 一 定量 
的 镁 要 样本 获得 摘要 要 素 撰写 的 特征 规律 。 如 : 曹 雁 
Lu 以 “ Introduction-Method -Results-Discussions ( 引言 

CB 法 - 结果 - 讨论 ) .简称 IMRD"” 四 要 素 模式 作为 

SEDRE, AIAI Range 词汇 分 析 软件 标记 每 种 
要 过 下 词汇 ,发现 每 个 要 素 都 存在 一 些 带 有 倾向 性 的 
ink. R. A. Day 等 中 通过 调研 各 要 素 中 时 态 的 使 用 
频次 ,发 现 方法 和 结果 两 部 分 的 时 态 应 用 较为 相似 ,过 
去 时 态 使 用 较为 频繁 。 钱 多 秀 等 "对 论文 摘要 的 各 个 
要 缠 进 行 对 比 研究 ,发 现 IMRD 四 要 素 的 时 态 未 来 有 
转向 一 般 现在 时 的 趋势 。 
2.1.2. 要素 的 模式 特征 研究 

主要 侧重 于 对 要 素数 量 和 组 合 的 研究 , 以 N. 
Gratez ^ 为 代表 的 学 者 首先 提出 了 四 要 素 模式 ,总 结 
具有 普遍 性 的 “Problem-Method-Results-Conclusions ( 问 
题 -方法 -结果 -结论 ) ”四 要 素 模 式 。 随 后 J_M. 
Swales 对 N. Graets 研究 数据 获取 的 可 靠 性 和 科学 性 
提出 质疑 ,认为 摘要 的 要 素 模式 应 与 论文 的 要 素 模 式 
一 一 对 应 ,主张 摘要 应 该 由 IMRD 四 要 素 组 成 。 同 时 
F. Tseng " 李涛 中 和 周志 g 51 等 一 批 学 者 也 都 在 
IMRD 模式 的 基础 上 ,提出 了 以 “Background-Method- 
Result-Conclusion( 背景 — 方法 - 结果 - 结论 ) .简称 
BMRC ”为 代表 的 其 他 几 种 四 要 素 的 变 体形 式 。 然 而 
一 些 学 者 发 现 为 了 保证 摘要 的 完整 性 ,应 该 增加 对 论 
文 背景 的 介绍 。 因 此 T. Dahl "基于 J M. Swales 的 


要 求 , 例 如 :JAMA Surgery , Physiotherapy 要 求 的 结构 式 
摘要 中 最 多 有 8 个 要 素 。 
2.2 摘要 语义 特征 的 相关 研究 

美国 语义 学 专家 L. F. Don 和 A. P. NILSEN” 
提出 语义 特征 包括 五 大 类 ,分 别 为 :语法 -语义 特征 、 
内 在 语义 特征 ,谓语 性 语义 特征 ,状语 性 语义 特征 和 感 
受 性 语义 特征 。 对 词汇 或 者 其 他 实体 进行 语义 特征 分 
析 时 ,往往 使 用 “[ + -语义 属性 ]” 来 表示 对 应 的 语义 
特征 。 第 2 类 和 第 5 类 属于 词汇 层面 的 语义 特征 ,要 
素 类 别 可 以 充当 语义 特征 属性 ,如 :[ + background ] 
[ -objective | | - method ] [ - result |] 和 | — conclusion ] 。 
其 余 类 属于 语法 层面 的 语义 特征 分 析 , 不 能 脱离 句子 
而 分 析 , 单 个 词汇 不 能 表现 出 任何 语义 。 其 中 利用 语 
义 特征 技术 实现 论文 摘要 要 素 识 别 的 研究 包括 :基于 
单一 特征 的 语义 识别 技术 研究 和 基于 综合 特征 的 语义 
识别 技术 研究 。 

基于 单一 特征 的 语义 识别 技术 研究 是 指 仅仅 利用 
词 频 .语序 .时 态 等 某 个 特征 进行 摘要 要 素 的 语义 识 
别 。2002 4E L. E. ANTHONY ^ 首次 构建 出 摘要 自动 
识别 模型 ,他 最 初 是 利用 少数 的 摘要 数据 ,从 摘要 数据 
中 提取 一 到 五 个 单词 的 连续 单词 集群 ,基于 朴素 贝 叶 
斯 算法 进行 学 习 , 以 达到 摘要 结构 要 素 内 容 的 识别 。 
miS. N. Kim fll L. MARTINEZ ^ 通过 研究 发 现 应 用 
语序 进行 结构 要 素 识 别 时 ,条 件 随 机 场 算法 要 比 朴素 
贝 叶 斯 算法 和 支持 向 量 机 效果 更 好 ,精确 度 一 般 在 
9096 以 上 。 而 综合 特征 的 语义 识别 技术 相 比 单一 特征 
的 语义 识别 技术 对 人 的 主观 性 依赖 较 多 ,需要 人 为 选 
择 待 分 析 的 特征 。 如 V. D. Feltrim 4: ^ 将 摘要 划分 
为 若干 句子 群 ,通过 对 句子 所 处 位 置 进行 结构 要 素 识 
别 研 究 。J. Silva 等 255 和 Y. K. Meena 等 ("1 也 利用 句 
子 特征 构建 了 不 同类 型 的 要 素 识 别 模型 。Y. Guo 
AU 利用 句法 分 析 工 具 对 词汇 特征 和 语 境 特征 的 效 
果 进 行 比 较 , 发 现 词 汇 特征 的 预测 效果 最 好 , 语 态 和 要 
素 语序 的 识别 效果 最 差 。 沈 思 等 '” 以 摘要 文本 中 的 
字 为 基本 语义 单位 ,基于 LSTM-CRF 模型 的 深度 学 习 
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方法 构建 出 期 刊 论文 摘要 结构 功能 自动 识别 模型 。 但 
其 结构 要 素 标 签 的 选择 并 没有 考虑 到 学 科 的 差异 性 。 

综 上 发 现 :中 词 块 具 有 独特 性 特点 ,词汇 特征 的 预 
测 效 果 比 语 态 和 要 素 语 序 的 识别 效果 更 好 ;四 词汇 属 
性 可 以 视 为 语义 特征 体现 ,同时 内 在 语义 特征 主要 侧 
重 于 基本 概念 ,基本 逻辑 的 语义 特征 ;(3) 摘 要 要 素 识别 
的 研究 ,重点 关注 了 词 频 \ 时 态 、 语 态 、 位 置 等 语义 特 
征 。 但 从 词汇 属性 的 角度 ,考虑 构建 语义 特征 词典 进 
而 完成 摘要 内 容 标记 的 研究 尚未 见报 道 。 因 此 为 解决 
以 往 研 究 中 主观 依赖 性 强 特征 稀 玻 以 及 可 解释 性 受 
限 等 问题 ,本 研究 试图 以 定量 分 析 为 主线 .以 词汇 属性 
为 引导 构建 出 语义 特征 词典 ,为 摘要 要 素 的 识别 建立 
基础 。 


3 SS 研究 方法 与 数据 准备 
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30 研究 目标 和 设计 

ON 为 了 提高 信息 组 织 的 智能 化 标 引水 平 ,为 计算 机 
m 
f| VI PCIE AY rep d es ADRS ze EAR 


识别 方法 确定 


20230 


a 

E] 
zi 
e 


chinaXiv 


$ aR GR HH b am 


测试 集 样 本 选取 及 数据 处 理 


以 英文 科技 期 刊 论 文 的 结构 式 摘要 数据 为 样本 ,通过 
对 以 下 三 个 问题 的 具体 研究 ,深入 挖掘 结构 式 摘要 的 
结构 要 素 及 其 文本 特征 ,以 构建 具有 结构 要 素 识 别 功 
能 的 语义 特征 词典 :中 如 何 确定 结构 式 摘 要 识别 与 标 
引 方法 ? 人 @) 结 构 要 素 中 是 否 存在 具有 语义 识别 功能 的 
代表 性 特征 词汇 ”名 特征 词 是 否 能 识别 非 结 构 式 摘要 
中 句子 的 结构 要 素 ,识别 效果 如 何 ? 本 研究 首先 对 绪 
构 式 摘要 特征 进行 分 析 总 结 ,发 现 35% 以 上 的 结构 式 
摘要 采用 了 BMRC 或 OMRC 的 标签 组 配 模 式 , 同 时 发 
现 美国 国家 医学 图 书馆 提供 的 结构 式 摘要 标签 术语 集 
中 也 对 标签 按 BOMRC 进行 了 标签 分 类 关系 映射 ， 
此 提出 了 采用 BOMRC 五 要 素 模 式 进行 结构 式 摘要 识 
别 及 标 引 的 方法 。 然 后 通过 对 统一 映射 到 BOMRC 模 
式 的 结构 式 摘 要 句子 的 内 容 特征 词 计算 ,完成 了 不 同 
结构 要 素 下 特征 词 候 选集 的 提取 ,并 采用 结构 式 摘 要 
测试 集 完 成 特征 词 候选 集 的 修正 与 完善 工作 ,构建 了 
适用 于 BOMRC 结构 要 素 标记 的 语义 特征 词 基础 词 
典 ,最 后 利用 语义 特征 词典 进行 识别 有 效 性 检验 工作 。 
具体 研究 内 容 与 研究 设计 如 图 1 所 示 : 


标 引 方 法 确定 


要 素 标签 分 类 关系 映射 


要 素 标 签 格式 整理 


要 素 标签 属 性 分 类 | 


特征 词 筛选 指标 及 其 方法 ， 形 成 特征 词 候 选集 


特征 词 候选 集 修正 


特征 词 属性 统计 分 析 ， 易 除 属性 矛盾 词 


词典 依据 语义 特征 词典 对 句子 进行 语义 特征 属性 标记 


人 工 标注 及 抽样 


语义 特征 词典 识别 效果 检验 


1 研究 设计 思路 
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3.2. 数据 准备 据 284 525 条 (2012 - 2017 年 ) ;剔除 非 Article 文献 类 
3.2.1 期 刊 论文 基础 数据 准备 型 数据 ,按期 刊 抽取 每 种 期 刊 的 最 新 一 期 论文 数据 , 实 


本 研究 采用 科 睿 唯 安 公 司 基于 WOS 核心 合集 数 。” 际 得 到 10 143( 去 重 后 为 7 218 ) 种 期 刊 的 16 900( 去 重 
据 库 ,为 “全球 工程 前 治 研究 项 目 " 标 记 的 中 国 工程 院 。 后 为 13 046) 篇 论文 简要 信息 数据 ,如 表 1 所 示 : 
下 属 9 个 领域 的 TOP 10% 高 被 引 论文 及 其 施 引 论 文 数 
表 1 中 国 工程 院 9 个 领域 下 期 刊 基础 论文 数据 准备 过 程 及 其 筛选 结果 


ES 高 被 引 论文 及 其 施 引 论文 篇 数 来 源 期 刊 种 数 最 新 期 刊 论文 篇 数 
1 机 械 与 运载 工程 26 804 1 033 2 102 
2 信息 与 电子 工程 24 716 710 1 586 
3 化 工 、 治 金 与 材料 工程 26 047 519 1 103 
4 能 源 与 矿业 工程 31 065 765 1 584 
5 土木 .水利 与 建筑 工程 27 135 1 033 1 908 
6 环境 与 轻 纺 工程 30 942 1 204 1 922 
7 农业 24 102 1 438 2 070 
8 医药 卫生 22 254 1 660 2 414 
TS 9 工程 管理 18 870 1 681 221 
2 合计 231 935 10 043(7 218) 16 900(13 046) 
sQ 结构 式 摘要 论文 筛选 集 , 采 用 简单 的 模式 匹配 和 前 方 一 致 匹配 相 结 合 的 方 


〇 (1) 以 美国 国家 医学 图 书馆 提供 的 3 032 个 结构 | 法 ,依据 摘要 中 出 现 的 标签 位 置 和 数量 等 特点 进行 判 
武山 要 标签 作为 标签 术语 集 5 ,结合 本 研究 过 程 中 收 | 断 , 对 13 046 论 文摘 要 数据 进行 得 选 , 共 筛 选 出 1 583 篇 
全 葬 结构 式 摘要 要 素 标 和 后 眼 随 的 特殊 标记 字符 特征 采用 结构 式 摘要 的 论文 ,如 图 2 所 示 : 


CD [ xs | 
N 
© 统计 并 记录 字符 数 和 单词 数 
N 
mm 
2 [ 切 分 句子 一 一 > aniraa ”| 
© yo UN m BN 
c | meane | qe 非 结构 式 摘要 
Y 
(S) Ea 
EE E RN 
标签 后 字符 特征 集 一 属于 特征 集 一 一 N 
Y 
Y 
标记 标签 名 称 及 其 句子 | 
N 


一 个 以 上 标签 ? 一 一 


2 ”结构式 摘要 论文 筛选 流程 


(2) 对 拟 筛 除 的 非 结构 式 摘 要 进行 人 工 核查 发 共 标 记 出 1 213 种 期 刊 的 1594 篇 较 新 论文 作为 结构 
现 ,个 别 结构 式 摘 要 中 存在 :标签 拼写 错误 .特殊 标签 ”” 式 摘 要 研究 样本 。 结 构 式 摘要 识别 及 标 引 结果 样 例 ， 
格式 ,标签 未 被 美国 国家 医学 图 书馆 提供 的 标签 术语 。 如 图 3 所 示 : 
集 收 录 等 问题 。 人 工 补充 11 篇 未 准确 标记 的 论文 后 ， 
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:|We aimed to define the depth and time of maximal anti-tumour response to programmed death-1 blockade antibodies 
ITUI-PD ET METE 


ated at France, 


E Is 


within S mo 


nths, & minority of partial responses were conve: 


sical Hodgkin lymphoma (HL). To this end, we evaluated the kinetics of response for 
[Ihe 18F-FDG positron-emission tomography Venir and contrast-enhanced tomography (CECT) 
5 " from 2013 to 2015 were lively reviewed according to the 
International pete 2014 criteria and the Response to therapy Criteria sen patients were included. 

The median (range) treatment duration was 18.4 (2.8-23.7) months. Fifty-six per 

response at 3 months, including 19% (3/16) of complete response. Seventeen percent (1/6) of partial at 3 months were converted 
in a complete response. 22% (2/9) of 3 months relapsed befo| 
(range) depth of response at nadir was -77% (-50% to 1001). 


patients (9/16) achieved an objective 


he nadir was reached at 12.7 (3.0-23.0) months. The median| 


Conclusion: le concluded that complete metabolic responses occurred 


te response, and the median nadir was observed one year 


fter treatment initiation. these Hata could help to better define the optimal treatment strategy by PET or approaches. (C) 2017 


lsevier Ltd. All rights reserved.| 


Xbackground» We aimed to define the depth and time of maximal anti-tumour response to programmed death-1 blockade antibodies (anti-PD1; 


mPBRSLIDeDESE 


To this end, we evaluated the kinetics of response for up to two years. 
«materials and methods» The 18F-FDG positron-emission tomography (PET) and contrast-enhanced tomography (CECT) data of all relapsed or“ 
«results» Sixteen patients were included. The median (range) treatment duration was 18.4 (2.8-23.7) months. 
Fifty-six percent of patients (9/16) achieved an objective response at 3 months, including 19% (3/16) of complete response. 
Seventeen percent (1/6) of partial at 3 months were converted in a complete response. 
22% (2/9) of 3 months relapsed before one year. The nadir was reached at 12.7 (3.0-23.0) months. 
The median (range) depth of response at nadir was -77% (-50$ to 1001). 


Xconclusion» We concluded that complete metabolic responses occurred within 6 months, a minority of partial responses were converted ii 
These data could help to better define the optimal treatment strategy by PET or approaches. 


图 3 结构 式 摘要 识别 及 标 引 结 


(3 ) 选 取 数 据 集 中 1 213 种 期 刊 包含 的 全 部 13 781 
篇 论文 数据 ,再 次 进行 结构 式 摘要 筛选 ,其 中 含有 非 结 
摘要 论文 5 021 篇 (作为 非 结构 式 摘要 检测 集 ) ， 
式 摘要 论文 760 篇 。 排 除 结构 式 摘要 论文 中 覆 
m 篇 前 期 研究 样本 数据 ,其 余 7 166 篇 作为 后 


究 的 结构 式 摘 要 测试 集 。 同 时 对 标签 术语 集 未 收 
录 的 标签 进行 补充 和 映射 关系 对 应 , 共 补 充 30 个 标 
签 。 

GD 


4 他 滞 义 特征 属性 分 类 研究 


AO 结构 要 素 的 标签 数量 分 布 

.全 对 1 594 篇 论文 的 结构 式 摘要 采用 的 157 种 要 素 
棕 寿 进行 统计 发 现 ,所 有 标签 出 现 了 6 582 次 ,平均 每 
Adan 42 篇 摘要 里 。 其 中 Conclusion 出 现 的 频 
Adan , 接 下 来 依次 是 Result, Method , Background 和 
Ohieetive ,如 图 4 所 示 : 


Introduction i 96 


Aim s 112 
Material/Method. | — 126 


Finding ld 133 
Purpose W 203 
Objective [D E 
Background. MMNKENN 505 
Method n 255 
EA LULubLULULIl! | 331 
Conclusion aa 345 


500 1000 1500 
频次 
图 4 结构 式 摘要 要 素 标 签 出 现 频次 TOP10 


4.2 结构 要 素 的 标签 组 配 模 式 分 布 


要 素 标签 


a REDI 


clusion 简称 BRC 模式 ” ,如 图 $ Bros : 


Background 
Method 
Result 


Conclusion 


B+M+R+C 
25% 


iO ial 
piety 
ntroduction 


A:Material 
im 


其 他 
39% 


pentone poos 
HC 

Ex 

E 

8 

ES 


O+M+R+C 
10% 


B+MA/M+R+C 
2% 
B+MA/M+R+C Bons 
296 O+B+M+R+C 


MM+R+C  l+M+R+C P4D/M/AP+F+0/V P+M+R+C 4% 
2% 2% 396 4% 


S 结构 式 摘 要 的 结构 要 素 标 签 组 配 模 式 分 布 


结果 据 弃 了 对 单 要素 占 比 情况 的 分 析 考 察 方 
式 ”, 从 整体 上 对 组 配 模式 的 占 比 做 了 详细 统计 ,这 样 
可 以 更 有 利于 挖掘 要 素 之 间 的 顺序 性 。 同 时 发 现 Con- 
clusion + Result + Method + Background + Objective 五 要 
素 之 间 的 组 合 最 为 普遍 。 本 研究 也 通过 调研 大 量 期 刊 
投稿 说 明 以 及 文献 中 各 研究 要 素 的 定义 ,对 BOMRC 
五 要 素 包 含 的 概念 做 了 总 结 ( 见 图 6) 。 根 据 规定 的 要 
素 定 义 , 发 现 结构 式 摘 要 所 有 的 要 素 标 签 都 可 以 映射 
到 该 五 要 素 下 。 这 不仅 可 以 保证 摘要 内 容 识 别 的 完整 
性 ,还 可 以 区 分 出 摘要 的 核心 内 容 , 因 此 利用 词汇 属性 
对 BOMRC 五 要 素 内 容 进行 识别 具有 很 重要 的 意义 。 


5 语义 特征 词典 的 构建 


通过 对 标签 组 配 模式 进行 统计 发 现 , 共 出 现 了 
299 种 类 型 。 其 中 ,出 现 频次 最 多 的 是 “Background + 
Method + Result + Conclusion, .简称 BMRC 模式 ”, 占 比 
超过 1/4; 其 次 是 “Objective + Method + Result + Conclu- 
sion .简称 OMRC 模式 ”和 “Background + Result + Con- 


本 研究 期 望 获取 可 对 非 结 构 式 摘要 文本 内 容 进 行 
结构 化 识别 与 标 引 的 特征 词汇 ,而 非 结 构 化 摘要 文本 
内 容 特征 的 识别 以 句子 为 单位 相对 简单 易 行 ,因此 将 
前 期 获得 的 结构 式 摘要 文本 全 部 以 句子 为 单位 作为 文 
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刘 子 瑜 , 等 . 英文 科技 论文 摘要 的 语义 特征 词典 构建 [可 .图 书 情报 工作 ,2020 ,64(6) :108 - 119. 


Objective 


4 讲述 研究 背景 (介绍 现 有 研究 成 果 ， 现 有 研究 不 足 )、 
介绍 研究 的 主题 范围 、 研 究 问 题 的 前 提 等 


并 介绍 研究 目的 、 需 要 解决 的 问题 等 


包括 研究 设计 方案 、 数 据 收 集 方法 《所 需 的 研究 材料 、 设 备 、 


人 环境 和 技术 ) 和 参与 者 的 临床 表现 行为 等 


描述 研究 结果 和 研究 发 现 ， 对 实验 数据 的 剖析 和 总 结 ， 


X 陈述 研究 的 新 发 现 和 价值 部 分 


à 


通过 对 研究 结果 的 阐述 ， 从 中 得 出 的 正确 观点 、 研 究 启 
示 、 研 究 不 足 、 研 究 意义 【社会 意义 和 实际 意义 ) 等 信息 


图 6 BOMRC 五 要 素 定义 


档 , 并 结合 美国 国家 医学 图 书馆 归纳 的 映射 关系 ,对 提 
取 的 要 素 进行 BOMRC 五 要 素 归 类 , 以 期 租 选 出 具有 
识别 句子 所 属 结构 要 素 功 能 的 特征 词汇 。 另 外 ,TFIDF 
方法 是 当前 研究 中 最 常用 的 词 文本 特征 加 权 方法 , 它 
SENDER] 的 局 部 权重 同 全 局 权重 结合 在 一 起 ,可 识 
别 册 在 一 篇 文档 中 出 现 次 数 多 而 在 整个 文档 集合 的 其 
仿 要 们 中 出 现 次 数 少 的 词 。 因 此 ,本 研究 通过 以 下 流 
程 和 计算 方法 进行 了 特征 词 筛选 。 


DO :4 在 文档 j 中 的 频次 ， 即 词汇 在 结构 要 素 文档 集 下 句子 中 出 现 的 实际 频次 


| € n: 文 档 j 中 词汇 的 总 频次 ， 即 结构 要 素 文档 集 下 旬 子 中 出 现 的 所 有 词汇 频次 合计 ( 排除 非 英语 单词 


(1) 以 BOMRC 五 要 素 分 类 结果 为 文档 集 , 即 每 个 
结构 要 素 下 的 句子 为 一 个 文档 ,分 别 识别 和 标记 句子 
内 的 单词 (所 除 动词 ) .动词 三 词 词 块 和 四 词 词 块 , 排 
除数 字 、 符 号 等 非 英 语词 汇 字 符 ,统计 其 频次 。 

(2) 根 据 BOMRC 每 个 文档 集中 文档 标记 单词 动 
词 三 词 词 块 和 四 词 词 块 等 词汇 的 频次 以 及 包含 这 些 词 
汇 的 文档 数 、 总 文档 数 ,计算 每 个 词汇 分 别 在 BOMRC 五 
要 素 文档 集中 的 TFIDF 值 ,计算 公式 如 图 7 所 示 : 


wr 


er Ò + 词汇 i， 即 单词 、 动 词 、 三 词 词 抉 、 四 词 词 岂 

z LETS EE 

e ^ " 

N fd, t)= 一 xlog 

m i DF, 等 字符 ) 

之 9 N: 结 构 要 素 文档 集合 中 的 总 文档 数 ， 即 结构 要 素 文档 集中 总 句子 数 

e ! DEEA, 的 文档 数 ， 小 于 等 于 1 EMA EUR 

c LÈ dai 在 文档 j 中 的 权 信 ， 即 TF-IDF 信 

LE oed uw i ds 

E um . mE 

Oo 图 7 TFIDF 值 计算 指标 确定 
5.1 语义 特征 词典 候选 集 的 构建 


根据 每 个 词汇 在 BOMRC 五 要 素 文档 集合 中 出 现 
的 频次 及 其 TFIDF 值 占 比 , 人 工 观察 词汇 各 指标 的 数 


出 15 526 个 特征 词 ,形成 特征 词 候选 集 。 但 由 于 存在 
包含 关系 的 特征 词 会 出 现 属性 不 一 致 的 情况 ,因此 需 
要 对 单词 - 三 词 单词 -四 词 .动词 - 三 词 .动词 -四 


值 及 其 区 间 分 布 状况 ,发 现 按照 以 下 立 值 第 选 出 有 可 
能 作为 识别 句子 结构 化 功能 的 特征 词 ( 见 表 2): 

e 单词 : 词 频 =5 H TFIDF 值 占 比 二 50% (排除 其 
他 四 个 要 素 中 存在 TFIDF fé 240906 ) 

e 动词 : 词 频 3 且 TFIDF 值 占 比 二 50% (排除 其 
他 四 个 要 素 中 存在 TFIDF fé 24096 ) 

o 三 词 词 块 : 词 频 二 2 H TFIDF fË h ke >50% (E 
除 其 他 四 个 要 素 中 存在 TFIDF fH 4096 ) 

。 四 词 词 块 : 词 频 二 2 H. TFIDF fË h ke >50% (E 
余 其 他 四 个 要 素 中 存在 TFIDF 值 =40% ) 

通过 对 初 得 指标 的 定义 ,从 481 877 个 词汇 中 筛选 


词 和 三 词 — 四 词 等 五 种 情况 进行 分 析 , 噜 除 属性 不 一 
致 的 特征 词 ( 例 如 :“ suggest” 的 属性 为 Conclusion , 而 
"recent studies suggest that” 的 属性 为 Background ) , 4 
剔除 451 个 特征 词 ,保留 15 075 个 特征 词 ( 见 表 3) 。 
5.2. 语义 特征 词典 候选 集 的 修正 

特征 词 标 注 准 确 率 是 特征 词典 识别 效果 的 核心 
素 , 因 此 如 何 提高 特征 词 候 选集 中 词汇 的 平均 标注 准 
确 率 是 本 节 关 注 的 重点 问题 。 以 7 166 篇 论文 的 结构 
式 摘要 测试 集 作 为 语义 特征 词典 候选 集 修正 与 完善 的 
语 料 ,分 句 后 噜 除 与 摘要 内 容 无 关 的 句子 内 容 ,如 版 权 
HE, .链接 和 邮箱 等 , 共 得 到 80 346 个 句子 。 对 每 个 名 
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表 2 结构 式 摘要 BOMRC 


五 要 素 文本 中 特征 词汇 筛选 结果 


词汇 类 型 数量 和 占 比 /% Background Objective Method Result Conclusion 
单词 总 词 数 7 087 5718 9 336 10 779 8 309 
特征 词 数 64 23 183 95 47 
占 比 1.16 0.70 3.29 2.08 1.22 
动词 总 词 数 1 637 1 394 1 983 2 357 1 971 
特征 词 数 56 43 130 120 89 
占 比 3.60 3.08 6. 86 5.71 4.72 
三 词 词 块 总 词 块 数 36 778 23 538 49 943 64 788 48 120 
特征 词 数 1 448 924 2 594 3 393 1711 
占 比 3.94 3.93 5.19 5.24 3.56 
四 词 词 块 总 词 块 数 35 349 22 593 45 070 58 843 46 229 
特征 词 数 643 479 1 071 1 645 768 
占 比 1.82 2.12 2.38 2.80 1.66 
T 
词汇 类 型 Background Objective Method Result Conclusion 总 计 
~ 单词 57 20 175 89 44 385 
E 动词 55 38 122 116 84 415 
CO zi 1 399 874 2556 3 321 1 669 9 819 
o 四 词 词 块 594 469 1 043 1 615 735 4 456 
bx öt 2 105 1 401 3 896 5 141 2532 15 075 
TPE Su m pe a T8] Sc FRU PS b EE RA EET T BEY | 对 。 将 标注 准确 率 小 于 50% 的 特征 词 作为 剔除 对 象 ， 


(从 训 标 记 为 1, 错误 标记 为 - 1 ,未 标注 标记 为 0), 同 
蛙 划 每 个 特征 词 整体 标注 的 准确 性 占 比 进行 区 间 划 
分 利用 特征 词典 候选 集 对 结构 式 摘要 句子 内 容 标记 
及 得 结果 与 结构 式 摘要 句子 本 身 所 具有 的 标签 进行 核 
[qv] 表 4 4 种 类 型 特征 词汇 标记 准确 率 在 不 同 区 段 的 词汇 数量 分 布 


共 保 留 6 447 个 特征 词 。 表 4 是 4 种 类 型 特征 词汇 标 
记 准 确 率 在 不 同 区 段 的 词汇 数量 ,显然 三 词 特征 词 块 
的 标记 准确 率 明 显 高 于 其 他 类 型 的 特征 词汇 。 


-二 ”词汇 类 型 词汇 类 型 > =90% 80% -90% 70% -80% 60% -70% 50% — 6096 <50% 总 计 
-SE Background © 0 0 0 1 3 52 56 
Q Q 1 0 1 1 6 45 54 
© 136 16 28 67 137 654 1 038 
@ 78 8 7 24 62 193 372 
Objective © 0 1 0 1 16 19 
Q 0 1 0 0 3 33 37 
© 66 17 20 55 91 425 674 
@ 65 9 25 54 69 138 360 
Method © 7 16 34 26 26 63 172 
© 4 9 19 24 24 42 122 
© 684 206 142 165 187 462 1 846 
@ 312 70 34 46 34 104 600 
Result © 4 6 13 9 17 34 83 
© 13 15 23 15 15 28 109 
© 721 236 173 212 171 441 1954 
a 370 87 69 66 48 112 752 
Conclusion QD 1 0 2 6 y 26 42 
© 2 1 6 8 12 55 84 
[6) 2Tl 98 TI 115 132 517 1216 
@ 148 36 27 35 51 155 452 


注 : 中 特征 单词 ;@ 特 征 动词 ;@@ 三 词 特征 词 块 ;由 四 词 特征 词 块 
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5.3 语义 特征 词典 候选 集 的 完善 Background 42 : Objective ,3 : Method ,4 : Result,5 : Conclu- 


由 于 特征 词 的 选取 主要 依据 词 频 、TFIDF 值 的 占 
比 两 个 要 素 , 因 此 修正 后 候选 集 词汇 的 基本 特征 可 以 
从 特征 词 频次 占 比 、 特 征 词 TFIDF 值 排 名 区 间 占 比 两 
个 方面 进行 分 析 。 具 体 分 析 指 标 值 的 计算 过 程 如 下 : 


sion) 。 发 现 特征 单词 .特征 动词 .三 词 特征 词 块 和 四 
词 特征 词 块 的 频次 占 比 主要 集中 在 65% - 10096 60% 
-100% .60% -100% 和 60% -100% ;而 TFIDF 值 排 
名 区 间 在 前 30% 、 前 45% 、 前 10% 和 前 5% ,因此 可 以 


频次 占 比 :中 对 每 个 要 素 中 出 现 的 所 有 词汇 进行 
频次 统计 ;人 计算 每 个 要 素 下 词汇 频次 在 总 语 料 中 同 


综合 词 频 、 词 频 占 比 TFIDF 值 及 TFIDF 值 排名 区 间 四 
个 特征 指标 作为 特征 词 的 补充 标准 。 而 由 于 测试 集 的 


一 词汇 频次 的 占 比 ;@ 统 计 特 征 词汇 的 频次 占 比 区 间 。 
TFIDF 值 排名 区 间 : 中 计算 每 个 要 素 中 出 现 的 所 

有 词汇 的 TFIDF 值 ;@@ 对 同一 要 素 下 所 有 的 词汇 按照 
TFIDF 值 的 大 小 由 低 到 高 进行 排名 并 编号 ;@@ 对 所 有 
编号 进行 归 一 化 ,统计 TFIDF 值 的 排名 区 间 ,要 素 排 名 
区 间 = 该 要 素 下 词汇 的 排名 值 /该 要 素 下 词汇 总 频数 。 
于 = 对 BOMRC 五 要 素 中 包含 修正 后 特征 词汇 频次 占 


句子 数量 增加 ,需要 对 词 频 作出 调整 ,结合 人 工 观 察 最 
终 确定 单词 词 频 三 100 ,其 余 类 型 的 词汇 词 频 三 5 作为 
词 频 的 新 标准 。 利 用 结构 式 摘要 测试 集 计 算 其 中 出 现 
的 词汇 及 其 计量 指标 ,最 终 补充 了 5 542 个 特征 词 ,此 
时 词典 中 共计 11 989 个 词汇 。 经 过 属性 统计 ,人 列 除 存 
在 包含 关系 的 特征 词 属性 不 一 致 现象 ,最 终 确定 了 
11 761 个 特征 词 , 即 完善 后 特征 词典 的 词汇 量 扩充 到 


E 


B 
EGE TFIDF 值 排名 区 间 进 行 计算 ,如 图 8( 其 中 1: | 11 761 个 。 
e 100.0096 1 0 9 9 LI (E . moo 9 " . . € * 
11 Š I 
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三 词 特征 词 块 


8-3 ”各 要 素 下 三 词 特征 词 块 频次 占 比 及 TFIDF 值 排名 区 间 分 布 
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N 8-4 ”各 要 素 下 四 词 特征 词 块 频次 占 比 及 TFIDF 值 排名 区 间 分 布 


V 


Hi 


义 特征 词典 的 有 效 性 检验 


GE 语义 特征 词典 的 识别 有 效 性 需要 非 结构 式 摘要 检 
进行 验证 。 因 此 将 已 提取 的 5 021 篇 非 结 构 式 摘 
作为 检测 集 ,通过 分 句 操作 和 剔除 不 相关 句子 ， 
共 获 取 43 517 个 句子 。 使 用 语义 特征 词典 对 每 个 名 
子 进 行 要 素 标 注 , 通 过 抽样 结合 人 工 检验 判断 句子 标 


“H A 


X 


否 ,综合 


注 结 果 的 正确 与 
6.1 


评价 语义 特征 词典 识别 效果 。 
语义 特征 词典 标注 结果 分 析 

利用 语义 特征 词典 分 别 对 43 517 个 句子 进行 精 

确 匹 配 ,打上 相应 要 素 标签 。 据 统计 , 共 对 29 530 个 句 

子 标注 了 标签 , 占 比 67.86% 。11 761 个 特征 词 参与 了 

机 器 标注 , 占 比 73. 12% 。 具 体 匹配 的 特征 词 数 如 表 5 

Bra: 


表 5 BOMRC 五 要 素 下 参与 机 器 标注 的 特征 词 数量 分 布 


匹配 特征 词 数 Background Objective Method Result Conclusion 总 计 
特征 单词 7 1 123 55 19 205 
特征 动词 13 5 90 92 30 230 

三 词 特征 词 块 723 406 1 633 1 893 1 393 6 048 

dj 词 特征 词 块 271 289 491 617 449 2117 

总 计 1 014 701 2337 2 657 1 891 8 600 


另外 对 标注 的 句子 数 进行 统计 发 现 ( 见 表 6) , 利 
用 三 词 特征 词 块 标注 的 句子 数 最 多 ,而 四 词 特征 词 块 
标注 的 句子 数 最 少 。 而 通过 对 句子 被 标注 标签 的 观察 
发 现 ,“Method + Result” 的 标签 组 合 形 式 最 多 (2 552 
个 )。 说 明 句 子 中 同时 出 现 Method 与 Result 要 素 的 特 
征 词 ,经 分 析 发 现 部 分 原因 在 于 Method 中 会 出 现 Out- 
come , Outcome measurement 等 表征 临床 试验 结果 的 干 


扰 要 素 。 标 注 结果 样 例 见 图 9。 
x6 BOMRC 五 要 素 的 特征 词 标注 句子 数量 分 布 
特征 


三 词 特 。 pu 


We M3 
SERIBU — 单词。 动词 qug quae SY 
Background 768 213 2 749 1231 4 981 
Objective 61 547 1 206 794 2 608 
Method 4 409 2 619 3171 846 11 045 
Result 2 417 3621 6 566 2114 14 718 
Conclusion 1 370 2 226 4 841 1 951 10 388 
总 计 9 025 9 226 18 533 6 956 43 740 
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原始 数据 : 


Nonalcoholic fatty liver disease (NAFLD), defined by excessive liver fat deposition related to the metabolic syndrome, is 

a leading cause of progressive liver disease, for which accurate non-invasive staging systems and effective treatments are 

still lacking. Evidence has shown that increased ferritin levels are associated with the metabolic insulin resistance syndrome, 
and higher hepatic iron and fat content. Hyperferritinemia and iron stores have been associated with the severity of liver damage 
in NAFLD, and iron depletion reduced insulin resistance and liver enzymes. Recently, Kowdley et al demonstrated in a multicenter 
study in 628 adult patients with NAFLD from the NAFLO-clinical research network database with central re-evaluation of liver 
histology and iron staining that the increased serum ferritin level is an independent predictor of liver damage in patients 

with NAFLD, and is useful to identify NAFLD patients at risk of non-alcoholic steatohepatitis and advanced fibrosis. These data 
indicate that incorporation of serum ferritin level may improve the performance of noninvasive scoring of liver damage in patients 
with NAFLD, and that iron depletion still represents an attractive therapeutic target to prevent the progression of liver damage 


in these patients. (c) 2012 Baishideng. All rights reserved. 


机 器 标注 的 数据 ; 


ne NO 
«objective; ;conclusion?| 


onalcoholic fatty liver disease (NAFLD), defined by excessive liver fat deposition related to the metabolic syndrome, is a leadin 
Kbackgroundy3Evidence has shown that increased ferritin levels are associated with the metabolic insulin resistance syndrome, and higher hepati 
lyperferritinemia and iron stores have been associated with the severity of liver damage in NAFLD, and iron depletion reduced insu 

owdley et al demonstrated in a multicenter study in 628 adult patients with NAFLD from the NAFLD-clinical research network 
ese data indicate that incorporation of serum ferritin level may improve the performance of noninvasive scoring of li 


图 9 非 结 构 式 摘 要 标 引 结果 样 例 


6.2 人 工 标注 及 抽样 
一 进行 机 器 标注 之 后 ,本 研究 邀请 两 位 标注 者 进行 
缚 村 核对 。 首 先 抽取 10 简 摘要 ,向 标注 者 展示 如 何 进 


召回 率 较 为 客观 。 另 外 了 l 值 的 平均 数 大 小 可 以 反映 
对 五 要 素 识 别 效果 的 综合 评价 ,结果 显示 利用 该 特征 
词典 对 Objective 要 素 的 识别 效果 最 差 , 其 中 一 个 重要 


行 册 工 标注 。 由 于 仅 限 于 对 BOMRC 五 要 素 进 行 标 
icc EER X on tales A 
ERRIA , 38 EP E HE A BUR OST IRURE I 20 篇 非 结 
a a 
准 希 一 致 的 结果 进行 沟通 ,最 终 达 成 一 致意 见 。 根 据 
和 水 标 注 方法 和 标准 ,将 下 载 的 5 021 篇 非 结构 式 摘 
要 铀 据 按 照 所 属 领 域 进 行 划分 ,对 每 个 领域 的 数据 首 
先 按照 论文 数 的 占 比 进 行 划分 ,之 后 对 每 个 领域 中 按 
JB] ISSN 号 进行 升序 排列 ,等 距 抽取 对 应 期 刊 (组 距 
=60 ,分 别 筛选 出 4.4.4.2.4.6.26.40、8 本 期 刊 。 对 
每 军 期 刊 中 的 论文 摘要 数据 按照 论文 元 数据 的 唯一 标 
识 迁 进行 升序 排列 的 第 一 篇 论文 摘要 作为 人 工 标 注 的 
对 象 。 按 上 述 标准 共 选 取 98 篇 论文 数据 ,进行 人 工 标 
注 。 
6.3 语义 特征 词典 识别 效果 校 验 

评估 是 信息 检索 .机 器 学 习 和 自然 语言 处 理 领域 
必要 的 工作 之 一 ,目前 常用 准确 度 、 精 确 率 、 召 回 率 及 
FI 值 等 指标 来 对 模型 或 词典 的 综合 识别 效果 进行 判 
断 。 通 过 对 4 种 特征 词汇 的 语 料 所 标注 的 标签 与 论文 
摘要 中 的 原始 标签 进行 核对 ,获取 每 个 特征 词汇 的 识 
别 情况 ( 见 图 10) 。 综 合 4 种 类 型 特征 词汇 求 取 平均 
值 发 现 ,4 种 特征 词汇 对 五 要 素 的 识别 准确 率 都 能 
证 在 8596 以 上 ,其 中 对 Objective 的 识别 准确 率 最 高 ， 
达到 90% 。 在 精确 率 方面 ,对 五 要 素 的 识别 效果 相差 
不 大 ,精确 率 都 能 保持 在 80% 以 上 。 而 从 召回 率 上 
看 ,Background 和 Objective 的 召回 效果 较 差 , Method 的 


X 


原因 在 于 Objective 与 Background 在 内 容 阐述 上 经 党 
存在 交叉 现象 ,但 总 体 识别 五 种 要 素 的 Fl 平均 值 为 
0. 760 6 ,与 2017 年 王立 非 等 在 4 英语 学 术 论 文摘 要 语 
步 结构 自动 识别 模型 的 构建 》” 一 文中 结合 机 器 学 习 
算法 综合 各 种 语言 特征 构建 出 的 摘要 要 素 识 别 模型 的 
FI 平均 值 0.781 9 相差 不 大 ,证 明了 语义 特征 识别 词 
典 的 识别 有 效 性 ,同时 利用 语义 特征 词典 对 Method 和 
Result 两 要 素 识别 效果 更 佳 。 


7 结论 


本 研究 采用 了 传统 词典 方法 来 识别 非 结 构 式 摘要 
的 结构 要 素 ,一 方面 考虑 到 该 方法 的 准确 性 和 可 解释 
性 较 强 , 男 一 方面 在 于 本 研究 的 结果 也 可 作为 规则 来 
完善 、 提 升 现 有 利用 机 器 学 习 算 法 构建 的 自动 标 引 模 
型 效率 。 本 研究 共 解 决 了 确定 结构 式 摘要 的 识别 与 标 
引 方法 、 构 建 判 别 句子 所 属 结构 要 素 类 别 的 语义 特征 
词典 和 依据 语义 特征 词典 识别 结构 要 素 属性 的 有 效 性 
检验 三 个 任务 。 语 义 特征 词典 的 构建 结果 充分 验证 了 
最 初 的 研究 假设 ,说 明了 不 同类 型 摘要 的 内 在 一 致 性 ， 
这 也 为 未 来 非 结 构 式 摘要 中 其 他 要 素 模 式 的 内 容 识别 
提供 了 一 个 新 的 思路 。 

本 研究 贡献 有 三 :中 不 仅 确定 了 结构 式 摘 要 的 识 
别 与 规范 化 标 引 方法 ,也 丰富 了 结构 式 摘要 要 素 标 签 
库 及 映射 关系 ;@ 在 结构 要 素 中 存在 特征 单词 特征 动 
词 三 词 特征 词 块 和 四 词 特征 词 块 等 具有 语义 识别 功 
能 的 代表 性 特征 词汇 ， 并 构建 出 了 包含 4 种 类 型 词汇 
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> 图 10 特征 词典 识别 效果 分 析 


ii 国文 和 生词 由 ;国语 义 特征 词 册 的 识别 效果 与 当前 
民 弦 在 的 其 他 摘要 要 素 自动 识别 模型 相当 ,证 明了 语 
各 征 识别 词典 的 识别 有 效 性 。 

< 十 但 本 研究 的 结构 式 摘要 样本 数量 有 限 ,语义 特征 
庆 丽 中 的 词汇 量 有 待 进一步 扩充 。 同 时 受 时 间 限制 ， 
来 网 据 特 征 词汇 的 共 现 关系 构建 句 型 模板 ,需要 进 一 
占 导 过 构建 各 型 模 板 进行 非 结构 式 摘要 的 结构 要 素 特 
征 钼 别 研究 。 最 后 在 有 效 性 测试 集 检测 时 ,标注 样本 
数 甘 不 够 大 ,检验 效果 有 一 定 的 局 限 性 。 后 续 研究 有 
必要 进一步 挖 据 具 有 辨识 功能 的 典型 名 型 以 及 非 结构 
式 策 要 文本 内 容 深度 标 引 的 方法 和 智能 化 标 引 研 究 ， 
为 种 村 期 刊 摘要 的 有 效 利用 英 定 方法 基础 。 
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Abstract: | Purpose/significance | The abstract of scientific papers is a vital indexing object within information 
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(organization. Meanwhile, indexing the abstract according to certain rules is conducive for not only scientific commu- 
Cation or knowledge discovery, and intelligence analysis as well. Thus, how to realize auto-index accurately and 
Cquickly, for millions of unstructured abstracts existed nowadays is a crucial problem to be addressed. [ Method/ 
Yocess] This study assumed that different categories of abstract are inherently consistent, that is, the study of struc- 
ted abstract can provide a method and technical reference for unstructured abstract auto-indexing. Acting in accord- 
Mce with this assumption and based on the US National Library of Medicine’ s structural element labeling terminolo- 
g this study accomplished mapping across abstract element classifications and proposed BOMRC system, a normali- 
aion indexing method for structured abstract. Then we collected research sample and used text mining method to an- 
&lyze multiple features of structured abstract quantitatively and statistically, such as word frequency, TF-IDF value, 
as for dimension of words, verbs, three-word lexical chunks and four-word lexical chunks, which enabled us propose 
a semantic feature dictionary for structured elements. Finally, we used unstructured abstract to test the validity of the 
semantic feature dictionary. | Result/conclusion | The results show that the semantic feature dictionary method can 
effectively identify various structural elements of scientific paper abstract, and it can be used to optimize the automat- 
ic recognition model, which may be based on machine learning methods. 
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